常用网站介绍

您所在的位置:网站首页 sound 和voice 和noice区别 常用网站介绍

常用网站介绍

#常用网站介绍| 来源: 网络整理| 查看: 265

蛋白数据库几乎是生物领域研究人员不可或缺的工具之一,UniProt数据库作为资源最广、信息最丰富的蛋白数据库,是查询蛋白功能的首选。UniProt功能全面,小编将通过上下两期内容来详细介绍其使用方法。

进入官网(https://www.uniprot.org/),可以看到数据库页面分为上下两部分,上半部分为搜索框(图1),下半部分则是数据库和分析工具,也是本期主要介绍的内容。

  

一、UniProt数据库构成

目前,UniProt主要由以下子库构成:

1. UniProt Knowledgebase(UniProtKB)

该数据库由Swiss-Prot和TrEMBL两个数据库构成。Swiss-Prot数据库代表着高质量、人工注释的、非冗余的数据集,其注释数据的来源于文献研究或校验过(Reviewed)的分析结果。TrEMBL数据库,代表蛋白未经校验(Unreviewed),通过机器对序列进行自行翻译和注释。

 

2. Proteomes

该数据库收录已经完成全基因组测序的物种、序列翻译已有注释的蛋白质信息,信息相对全面详细。

 

3. UniRef

聚类序列隐藏冗余序列以缩减数据库大小,可加快搜索的速度。包含UniRef100、UniRef90以及UniRef50三个数据集。UniRef100数据集是将来自某一生物体的具有11个或更多残基的相同序列和子片段合并到单个UniRef条目中,显示具有代表性的蛋白质序列。UniRef90则是对具有11个或更多残基的UniRef100序列进行聚类构建的,每个聚类由与聚类的种子序列(即最长序列)至少具有90%序列一致性和80%重叠的序列组成。UniRef50是通过将UniRef90种子序列进行聚类而构建的,这些序列至少与集群中最长的序列具有50%序列一致性和80%的重叠。UniRef90和UniRef50分别缩减了大约58%和79%的数据库大小,提供了显着更快的序列相似性搜索。

 

4. UniParc

非常全面的非冗余数据库,包含了世界上大多数公开的蛋白质序列。

数据库关系如下:

通过EMBL,GenBank,DDBJ等公共数据库得到原始数据,处理后存入UniParc的非冗余蛋白质序列数据库。UniParc再分别给UniProtKB,Proteomes,UniRef提供可靠的数据集。

 

二、辅助数据

提供数据支撑和不同索引方式,也可以在搜索框中直接选择。

  

三、分析工具

可进行BLAST、多序列比对,不同数据库ID查询和多肽搜索等。

  

四、UniProt数据

下载数据或技术文档,通过编程方式访问数据库和上传数据。

 

五、搜索界面

以“TP53”为例,输入搜索框后出现如下界面,可通过左边过滤选项面板进一步筛选需要的蛋白。

  

过滤选项面板

1、Status:用于筛选经校验或未经校验的蛋白。Reviewed:存储在Swiss-Prot数据库中经过验证的蛋白数据,Unreviewed:存储在TrEMBL数据库中没有经过验证的蛋白数据。

2、Popular organisms:用于筛选物种。

3、Taxonomy:可通过蛋白的名称、功能、细胞内定位、结构等蛋白特征筛选目的蛋白。

4、Group by:可通过选择蛋白特征、关键词、基因本体论(GO)或酶分类将搜索界面的目的蛋白分类进而筛选目的蛋白。

5、Proteins with:根据蛋白的序列特征以及是否有3D结构图像筛选目的蛋白。

6、Protein existence:证明目的蛋白存在的证据类型,包括蛋白质水平的实验证据、转录水平的实验证据、从同源性推断的蛋白质、预测的蛋白质和不确定的蛋白质。

7、Annotation score:即注释分数,分数越高,注释内容越全面可靠。

8、Sequence length:即序列长度,可根据目的蛋白的长度缩小筛选范围。

 

本期内容主要介绍了UniProt的主界面和搜索界面,下期将详细介绍目的蛋白界面的内容,感兴趣的小伙伴可以留意一下哦~

汉恒专营工具病毒十余载,如有基因调控相关技术问题,欢迎随时咨询!

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3